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中 国 大 学 生 的 网 络 使 用 :基于 大 规模 目 志 分 析 的 模式 
识别 新 方法 
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摘要 : [目的 /意义 ] 深 入 挖掘 和 准确 理解 中 国 大 学 生日 常 网 络 行为 模式 ,不 仅 对 促进 用 户 行为 和 检索 领域 
的 发 展 具有 巨大 的 理论 意义 ,而 且 在 提升 面向 大 学 生 用 户 的 企业 个 性 化 服务 与 信息 推荐 能 力 方面 也 具有 潜在 
的 社会 价值 和 实践 意义 。[ 方 法 /过 程 ] 提 出 一 种 基于 大 规模 日 志 分 析 的 大 学 生 用 户 行为 模式 识别 新 方法 ,该 方 
E 6,4& — Fb T UR CS 2] fe SUR ZH WEBOR 3 2E EUCEE SP I 37" MaxMatching" NA RA A fbr 468 C 408 45 Jc 
KARAR, [ 结果 /结论 ] 实证 结果 表明 本 方法 不 仅 在 算法 和 结果 解释 上 具有 一 定 的 优势 ,而 且 能 从 网 
终 使 用 能 力 、 访 问 时 序 性 和 主题 倾向 性 三 方面 归纳 与 呈现 中 国 大 学 生 网 络 行为 全 方位 模式 。 该 方法 和 结论 有 
受 地 拓展 了 信息 检索 领域 查询 项 的 语义 化 理解 方面 的 方法 体系 ,也 为 企业 提升 面向 大 学 生 用 户 的 个 性 化 信息 
骏 荐 服务 提供 一 定 的 参考 和 可 行 性 意见 。 
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No SURVIE MIE 常 有 效 的 技术 中 。 对 此 ,本 研究 提出 一 种 基于 大 规模 
组 成 部 分 。 根 据 2018 年 中 国 互联 网 络 信息 中 心 (Chi- 。 5, Nan 
» Recte NIC AE 日 志 分 析 的 大 学 生 用 户 行为 模式 识别 新 方法 ,该 方法 
na Internet Network Information Center, Dn 包括 一 种 基于 面向 大 学 生日 志 数 据 深度 学 习 和 文本 分 
115,20 -29 岁 年 龄 段 网 民 通 过 PC 电脑 .手机 终端 等 N - i 

Mh Mone i 析 技 术 的 非 监 督学 习 算 法 “MaxMatching” ,以 及 混合 两 

多 重 网 络 渠道 使 用 互联 网 , 占 中 国 网 民 人 数 的 30%; 0 sn 
大 加 本科 及 以 上 学 历 占 到 21.1% 。 不 同 于 其 他 年 龄 Ae E en s 
段 的 人 群 ,以 “90 后 "为 主力 的 大 学 生 群 体 在 网 络 技术 OERA: AROAN H a MUR 
日 益 划 新 的 时 代 中 更 加 安 易 接受 新 文化 新 思想 以 及 。 分 析 并 准确 理解 用 户 使 用 意图 和 主题 偏好 ? @ 在 综合 
新 技术 的 传播 与 影响 ,具体 夷 现在 其 日 党 网 络 生活 中 考 感 大 学 生 上 网 行为 的 网 络 使 用 能 力 特征 ,时 序 特征 
的 行为 模式 与 主题 偏好 中 ,如 较 强 的 网 络 搜 索 能 力 .对 ”和 主题 特征 下 ,如 何 理解 不 同 大 学 生 群 体 的 网 络 行为 
亚 文化 和 游戏 文化 的 追求 与 社交 媒体 的 广泛 使 用 。 因 。” 伴 式 ? 
此 理解 和 搜寻 有 用 的 用 户 模式 并 识别 出 有 意义 的 事 PET 
件 潜在 的 风险 和 制定 战略 决策 具有 深远 的 社会 意 
义 中 。 大 规模 网 络 日 志 分 析 正 是 一 种 基于 海量 的 用 户 已 有 的 相关 研究 对 大 学 生 信息 搜索 与 使 用 行为 、 
网 络 行为 记录 ,通过 数据 挖掘 和 机 器 学 习 算法 对 不 同 。” 主题 偏好 和 社会 心理 变化 等 多 方面 进行 了 探索 ,如 在 
用 户 群体 的 宏观 结构 和 微观 特征 进行 逐 层 分 析 与 揭示 。。 线 音 乐 使 用 ”、 网 络 使 用 行为 与 心理 因素 ””、 学 习 型 
的 高 效 方法 。 昌 然 如 此 ,但 日 志 分 析 方法 的 效用 仍然 ”搜寻 行为 "等 。M. Madden 等 研究 用 户 在 线 行为 时 发 
没有 得 以 充分 发 挥 ,H. R. Jamali 等 认为 尽管 基于 人 口 。” 现 大 学 生 喜 欢 下 载 和 听 音 乐 ,也 喜欢 进行 在 线 聊 天 与 
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社交 ,不 过 很 少 出 于 休闲 娱乐 的 目的 呈 。 张 月 翼 等 调 
查 了 中 国 大 学 生日 常 使 用 移动 设备 进行 个 人 信息 管理 
的 活动 ,发 现 越 来 越 多 的 大 学 生 使 用 手机 进行 个 人 信 
息 存储 ,其 中 近 一 半 的 被 调查 者 会 使 用 和 存 取 通 话 LI 
相 、 社 交 媒体 、 邮 件 . 个 人 便签 .时 钟 和 工作 或 个 人 文档 
等 信息 。 吴 丹 等 重点 研究 大 学 生 使 用 手机 搜索 所 引 
发 的 跟随 行为 ,在 非 受 控 实 验 环境 下 中 对 30 位 大 学 生 
近 15 天 的 手机 使 用 情况 进行 了 记录 ,并 且 结 合 结构 化 
日 记 和 采访 数据 进行 定性 与 定量 相 结合 的 综合 分 析 ， 
研究 结果 显示 存在 三 类 跟随 行为 , 即 持续 性 搜索 .购物 
决策 和 信息 分 享 ,并 且 大 部 分 跟随 行为 会 在 首次 搜索 
会 话 后 1 个 小 时 后 发 生 , 大 部 分 参与 者 会 根据 不 同 的 
App 采取 不 同 策略 跟随 一 一 只 有 当 搜 索 反 馈 结果 满足 
用 户 的 需求 时 ,用 户 才 会 进行 后 续 购 物 和 分 享 行为 , 否 
则 月 户 将 使 用 不 同 App 或 修改 查询 项 进行 再 次 搜 


在 信息 检索 和 使 用 过 程 中 ,基于 日 志 分 析 的 查询 
词义 理解 问题 一 直 以 来 是 计算 机 和 情报 学 等 领域 的 
研究 重点 。 最 为 经 典 的 用 户 意图 分 类 方法 来 自 于 A. 
=Broder 提出 的 INT 分 类 法 ,包括 “信息 类 意图 ” 
Cin rmational ) “导航 类 意图 ”( navigational ) 和 “事务 
类 草图 ” (transactional), O. Alonso 等 通过 基于 查询 项 
的 况 包 标注 发 现 信息 类 查询 在 当前 查询 项 中 可 以 占 
90 答 以 上 的 比重 (2 。C，GConzalez-Caro 等 将 查询 意图 
分 系 “ 信 息 类 意图 ”( informational) “ 非 信息 类 意图 ” 
( not informational ) 与 “歧义 性 意图 ”( ambiguous) ,并 根 
HUN. J. Belkin 搜索 任务 情景 理论 提出 一 种 查询 意图 
多 全 面 分 类 方法 ,即将 用 户 查询 意图 分 为 包括 类 型 . 主 
题 ,任务 .客观 性 、 具 现 性 ,范围 .权威 敏感 性 .空间 敏 感 


基于 taxonomy 的 半 监 督 查 询 项 分 类 ”” \LDA 主题 建 
模 “ ”与 深度 神经 网 络 模型 ”-” 近 些 年 来 也 取得 较 
为 突出 的 研究 成 果 。S. Dou 等 提出 基于 查询 项 映射 桥 
接 taxonomy 的 分 类 算法 ,该 方法 使 用 开放 式 分 类 目录 
(open directory project, ODP) 作为 中 间 taxonomy ,通过 
最 大 化 查询 项 与 分 面 词 表 之 间 的 匹配 得 分 函数 获取 二 
者 之 间 的 候选 关系 ,然后 基于 支持 向 量 机 进行 分 类 建 
模 。 实 验证 明 与 ACM KDDCUP 2005 比赛 的 第 一 名 算 
法 相 比 ,此 方法 分 别 在 F1 和 Precision 指标 上 可 提高 
3% 和 9% 7:4; ^ , T. KONISHI 等 注意 到 LDA 模型 存 
在 非 稀 玻 性 的 强 假设 的 局 限 , 于 是 将 查询 项 的 主题 对 
共 现 关系 考虑 到 主题 模型 中 ,提出 一 种 成 对 主题 模型 
PCTM^"' 。 该 模型 使 用 针对 每 个 词语 的 成 对 主题 共 现 
概率 来 进行 塌 缩 性 吉 布 斯 抽样 (collapsed Gibbs sam- 
pling) 以 解决 主题 之 间 稀 玻 性 关联 问题 。 实 验 结果 表 
HH PCTM 在 查 准 率 上 比 LDA 等 传统 模型 超出 3% 。 郭 
程 等 结合 Hownet 和 ATF * PDF 模型 提出 一 种 面向 查 
询 项 的 无 指导 的 主题 控 掘 模型 ,该 模型 对 部 分 词 频 较 
小 但 相对 重要 的 主题 词汇 有 很 好 的 识别 力 ” 。B. Wu 
等 基于 级 联 假 设 分 别 将 点 击 页 面 和 跳 过 页 面 作为 正 负 
反馈 文档 集合 ,结合 页 面 的 内 容 和 位 置 府 入 向 量 并 构 
建 带 有 注意 力 机 制 的 深度 反馈 记忆 网 络 (feedback 
memory network ) ,该 模型 在 查询 项 提示 任务 以 及 不 同 
长 度 和 会 话 的 查询 项 意图 识别 任务 中 都 获得 最 优 的 评 
价 效果 -”。 另 外 还 有 一 些 其 他 的 查询 意图 识别 方法 
如 查询 子 项 意图 分 解 ” 以 及 关键 实体 识别 等 技 
术 忆 也 在 特定 任务 上 具有 一 定 优势 。 

针对 上 述 研究 进行 分 析 与 总 结 ,我 们 认为 :由 有 关 
大 学 生 群 体 的 网 络 行为 研究 主要 采用 局 部 的 问卷 调查 


性 和 时 间 敏 感性 在 内 的 9 种 分 面 ,其 中 任务 分 面 与 查 
in vom, 

近年 来 学 者 们 注意 到 多 维度 查询 项 特征 对 于 深度 
的 用 户 查 询 意图 分 类 任务 的 重要 性 ,如 返回 结果 记 
3t 、 查 询 项 长 度 "”、 查 询 词 的 词性 与 位 置 特征 
与 鼠标 浏览 特征 "等 。R，V，Pujeri 等 认为 查询 项 产 
生 玻 义 性 的 原因 一 般 是 搜索 项 长 度 过 短 以 至 于 无 法 包 
含 足够 的 知识 背景 ” ,这 一 点 与 H.Cao 等 提出 的 观 
点 “查询 项 需要 情景 化 感知 ( context -aware query ) " 7 
是 一 致 的 。J. Teevan 等 使 用 查询 结果 的 质量 清晰 度 、 
点 击 炉 以 及 查询 项 自身 的 属性 ( 查询 字符 长 度 、 是 否 包 
A URL 或 者 是 否 包含 地 理 信息 等 ) 构 建 出 一 套 多 查询 
词 特征 的 贝 叶 斯 依存 网 络 分 类 模型 ,实证 结果 表明 其 
分 类 预测 的 准确 性 可 以 达到 80% 左右 ”。 除 此 以 外 ， 
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或 用 户 访 谈 方 法 , 且 侧 重 于 用 户 在 移动 终端 的 使 用 行 
为 与 心理 因素 的 分 析 。 由 于 受到 小 规模 数据 量 以 及 设 
备 场景 的 限制 ,其 结论 与 成 果 可 能 存在 偏差 (数据 偏差 
和 主观 认 知 的 偏差 )。@@ 在 用 户 意图 识别 分 析 上 ,大 量 
研究 仍 是 以 “Broder 用 户 意图 分 类 "为 基础 的 粗 粒度 的 
拓展 , 少 有 结合 特定 群体 (大 学 生 用 户 ) 的 时 间 、 主 题 
和 行为 层次 进行 多 维度 在 线 行为 模式 分 析 , 正 如 了. 
K. Seock 所 说 “网 络 对 大 学 生生 活 的 渗透 已 经 改变 了 
他 们 的 行为 .习惯 和 偏好 等 ,而 不 仅仅 是 不 同 设备 使 用 
方式 的 问题 ”” 。@@ 在 日 志 分 析 中 如 何 准确 理解 查询 
项 (query) 语 义 和 用 户 查 询 意 图 一 直 是 信息 检索 和 模 
式 识别 领域 的 研究 难点 ,目前 以 taxonomy ,主题 模型 或 
者 深度 学 习 等 为 基础 的 查询 扩展 的 方法 主要 是 强 监督 
学 习 算 法 ,不 仅 依赖 于 大 量 的 高 质量 标注 训练 样本 , 同 
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时 计算 复杂 度 和 实现 都 较为 困难 ,其 高 代价 成 本 可 能 
使 中 小 型 企业 难以 在 生产 实践 上 进行 使 用 与 部 署 。 
此 设计 简单 有 效 的 非 监督 ( 弱 监督 ) 学 习 模型 并 用 以 
准确 识别 中 国 大 学 生 网 络 行为 模式 是 非常 值得 探索 的 


问题 。 
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3.1 ”研究 框架 

本 节 主 要 说 明基 于 大 规模 日 志 分 析 的 大 学 生 用 户 
行为 模式 识别 方法 的 框架 与 步骤 ,如 图 1 所 示 。 我 们 
首先 设计 出 一 个 面向 大 学 生 用 户 在 线 网 络 信息 需求 的 
原型 导航 网 站 ( 见 图 2) ,并 将 其 投放 和 嵌入 到 覆盖 若 
干 省 份 的 中 国 高 校 大 学 校园 网 关 服 务 中 ,并 搜集 大 学 
生 用 户 的 上 网 日 志 记录 ,包括 用 户 登录 时 间 、 点 击 网 站 
的 村 | 以 及 搜索 使 用 的 查询 项 等 。 考 虑 到 大 学 生 用 户 
信息 需求 与 兴趣 偏好 ,我 们 构建 了 基于 查询 项 与 日 志 
启 荣 的 主题 分 类 表 , 对 网 站 ul 进行 人 工 语义 化 标 引 。 
二 搜索 的 查询 项 数据 ,本 研究 根据 外 部 语 料 知识 和 
机 器 学 习 理论 设计 出 一 种 半 监 督 匹 配 学 习 算法 Max- 
Maiching ,实现 查询 词 的 主题 映射 与 转换 ,与 ul 转化 的 
题记 录 进 行 合并 。 通 过 引入 “时 间 行为 和 主题 "组 
成 国 三 元 组 的 特征 粹 ,本 研究 将 用 户 在 线 行为 进行 特 
很 测 示 与 抽取 ,并 基于 聚 类 分 析 模型 实现 大 学 生 用 户 
群集 行为 模式 的 识别 。 
>< 
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| MaxMatching 匹配 | 


[a 词 的 语义 转换 
= = = 
竺 征 粹 抽取 与 计算 
— ERR 

用 户 聚 类 分 析 


图 1 基于 大 规模 日 志 分 析 的 大 学 生 用 户 行为 
模式 识别 新 方法 的 框架 


3.2 导航 网 站 设计 与 投放 

为 了 获得 大 学 生 用 户 日 常 上 网 数据 记录 ,本 研究 
将 Alexa 2016 年 网 站 排名 徘 前 并 莉 盖 大 学 生日 常 网 络 
生活 的 9 个 方面 (“ 吃 ”“ 玩 ”“ 乐 ”“ 挣 "“ 聊 ”等 ) 的 网 站 


Python 脚本 


2017-03-10 13:09 101118 link — 264774 htt 
2017-03-10 1411 10:14:02 link — 264556 


2017-03-10 14:44:54 — 13:58:52 search 121499 2016 作 # 
2017-03-10 14:09:40 10:57:04 search 121204 武汉 传媒 学 院 
56: :56: search 121479 大 明 干 朝 数据 库 


2017-03-10 15:13:28 12:12:06 search 121238 84 


图 2 导航 网 站 的 设计 与 数据 搜集 


进行 筛选 ( 共 76 个 网 站 ) ,从 而 构建 和 设计 出 一 个 用 户 
友好 的 导航 网 站 ,进而 联合 网 络 代理 商 将 该 导航 网 站 
投放 至 全 国 不 同 省 份 ,包括 湖北 、 江 西 广 东 、 浙 江河 
北 等 20 多 个 省 份 79 个 地 市 , 宪 盖 全 国 近 150 所 高 校 
的 大 学 生 用 户 。 为 了 确保 该 网 站 有 和 较 稳定 的 高 使 用 
率 ,网 络 代理 商 企业 将 该 网 站 (包括 数据 使 用 的 隐私 协 
议 等 ) 瞬 入 到 其 所 服务 的 各 个 高 校 校 园 网 网 关系 统 和 人 
口 处 ,这 些 学 校 的 大 学 生 用 户 在 登录 校园 网 之 后 可 以 
第 一 时 间 看 到 该 网 站 并 自由 使 用 或 者 关闭 此 导航 服 
务 。 同 时 根据 我 们 对 不 同 大 学 生 用 户 使 用 记录 和 频次 
的 统计 ,网 络 代理 商 将 为 高 频 使 用 此 网 站 的 用 户 提供 
上 网 套餐 减免 和 优惠 ,以 此 来 鼓励 大 学 生 们 尽 可 能 
地 使 用 该 导航 网 站 。 

本 研究 选择 2017 年 3 月 10 日 到 2018 年 3 月 10 
日 整整 一 年 的 用 户 数 据 作为 本 研究 的 数据 集 , 包 括 近 
3 500 多 个 用 户 的 40 多 万 条 日 志 记录 。 我 们 针对 该 数 
据 集 的 使 用 情况 进行 统计 后 发 现 ,网 站 运营 指标 独立 
用 户 访问 量 UV 与 网 页 浏览 量 PV 分 别 达 到 每 天 平均 
36 897 和 73 727 次 ,其 转化 率 基本 维持 在 396 左右 的 
较 高 水 平 。 从 数据 搜集 的 覆盖 面 和 用 户 使 用 状况 来 
看 ,我 们 认为 该 网 站 搜集 的 数据 样本 是 可 以 一 定 程 度 
代表 中 国 大 学 生 网 络 行为 的 。 然 后 本 研究 通过 对 导航 
网 站 JS 埋 点 和 权威 第 三 方 平 台 百 度 统计 采集 大 学 生 
网 站 访问 数据 ,并 编写 自动 化 R 脚本 进行 定时 的 数据 
下 载 ,存储 于 本 地 的 数据 库 中 , 见 图 2。 为 了 限定 采样 
日 户 的 范围 ,我 们 在 python 脚本 中 使 用 网 关 登 录 后 的 
身份 字符 标识 段 (uid 的 前 三 位 ) 进行 过 滤 , 以 确定 访 
问 用 户 为 在 校 大 学 生 群 体 ( 包 括 在 线 本 科 生 与 研究 
^E). 
3.3 ”用户 日 志 预 处 理 

用 户 日 志 的 预 处 理 阶 段 主 要 包含 两 部 分 的 处 理 内 
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容 : 中 对 已 有 日 志 数 据 进 行 数据 清洗 ,包括 无 效 查 询 词 
的 剔除 、 错 误 和 遗漏 的 用 户 属性 字段 的 过 滤 和 错误 条 
目的 排除 等 ,最终 本 研究 共 得 到 3 550 名 用 户 347 387 
条 记录 数据 。 数 据 字 段 包 括 6 个 , 即 用 户 账号 (uid) 、 
用 户 访问 日 期 (date) .用户 点 击 或 检索 行为 的 时 间 
(acttime) 用 户 登 录 网 站 的 时 间 (logintime) 用 户 行为 
类 型 (type) 以 及 项 目 (item)。 其 中 ,用 户 行为 类 型 包 


括 搜索 (search ) 或 者 链接 点 击 (link) ,项 目 则 包含 查询 
词 (query) 或 者 网 站 url, 具 体 如 图 2 所 示 。 人 @ 根 据 已 有 
的 研究 和 前 期 调研 情况 ,我们 对 大 学 生 上 网 偏好 和 意 
图 进行 主题 分 类 ,采用 人 工 标 引 对 网 站 进行 语义 映射 ， 
并 提供 不 同 分 类 的 概念 词汇 ,以 作为 后 续 查 询 词语 义 
匹配 的 种 子 词 集合 ,该 主题 分 类 具体 包括 如 表 1 Bron : 


表 1 用 户 日 志 的 主题 分 类 和 网 站 映射 
主题 标签 主题 类 别 网 站 ul 种 子 词 
Learning & Tool 学 习 工具 类 ”有 道 翻译 网 易 公 开课 .中国 知 网 .考试 吧 `. 沪 江 英语 、 研 招 网 .我 要 工具、 邮箱、 翻译 .软件 大学、 学习、 考 
自学 网 .智慧 树 iX Ae C Ee IS AUREOS E 
Job seeking 工作 求职 类 前程 无 忧 、 兼 职 吧 、 乔 布 简历 .实习 僧 、 应 届 生 求职 网 .智联 招聘 、 工作 ,求职 ,简历 .兼职 实习、 招聘 
1010 兼职 网 
Art & Entertainment 文艺 娱乐 类 —— VOR FM 网 易 云 音乐 .晋江 文学 城 \ 起 点 中 文 网 .虾米 音乐 . 喜 马 拉 “文艺 文学 .娱乐 .阅读 .音乐 ,时尚 
雅 FM ERE 纵横 中 文 网 ,QQ 音乐 
.. Game & Animation 游戏 动漫 类 —— ACFun, DEDERE 17173 3DM 游戏 .动漫 之 家 、 多 玩 游戏 .游民 星 ”游戏 ,动漫 ,二 次 元 
空 ,三 国 杀 、 有 妖 气 , 游 久 网 
ial communication 微 博 ,博客 社交、 交友 社区 


佳缘 


社交 聊天 类 ”网 易 邮箱 、 新 浪 微 博 、 腾 讯 微 博 、 人 人 、QQ 空间 ,百度 贴吧 世纪 
1 


芒果 TV iil TV 


EN 正如 综述 文献 中 所 提 到 的 ,大 部 分 查询 项 长 度 都 
比较 短 , 且 词 项 往往 是 非 规范 的 自然 语言 ,存在 多 歧义 
或 世 登 录 词 等 问题 如 “84”“ 跑 男 " 以 及 “龙珠 "等 ,难以 
被 赃 算 机 系统 所 理解 。 本 研究 类 似 地 采用 查询 扩展 的 
策略 ,从 人 机 交互 的 角度 引入 搜索 引擎 对 查询 项 的 返 
加 入 排序 记录 的 元 数据 表达 ,这 里 主要 选取 前 top10 的 
记录 作为 查询 项 的 背景 语义 知识 。A. MALIK 等 的 研 
究 表明 对 于 绝 大 部 分 用 户 而 言 (特别 是 大 学 生 用 户 ) , 
他 们 只 对 搜索 引擎 返回 的 前 10 个 左右 的 网 页 记录 满 
意 品 。 为 了 对 这 些 返回 记录 的 元 数据 进行 合理 的 语 
义 化 表达 ,本 研究 引入 词 向 量 的 分 布 式 虞 入 表 达 方 法 ， 
即 基 于 深度 神经 网 络 Word2Vec 模型 ” 进行 开放 语 料 
的 预 训练 ,然后 设计 出 一 种 新 的 半 监 督 启发 匹配 算法 
MaxMatching, 对 查询 词 进行 分 类 主题 的 识别 与 转换 。 
在 预 训练 阶段 ,我 们 从 百度 百科 、 搜 狐 新 闻 和 搜狗 语 料 
MEH T E 13 000 000 个 (130G ) 文 本 资源 ,通过 jieba 分 
词 和 CBOW 模型 进行 词 向 量 的 训练 ( 词 窗口 window = 
5 ,最 小 词 频 min, count =5, 词 特征 维度 size of vector = 
64) ,获取 了 涵盖 6 100 000 个 词 向 量 的 超大 词典 。 
MaxMatching 算法 假设 对 于 第 k 个 query, 的 返回 
记录 ,其 元 数据 的 关键 词 wr' 与 主题 分 类 s 的 某 个 
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视频 直播 类 斗 鱼 直播 直播 吧 、YY Erf Je 


Ff 直播、 腾讯 视频 优酷 网 、 爱 奇 世 、 视频 、 电 影 \TV 直播 .电视剧 


购物 消费 类 天 猎 、 淘 宝 网 京东、 当当 ,58 同城 . 美 团 网 ,大 众 点 评 、 俄 
优 品 .去 哪儿 .糯米 网 .蘑菇 街 .12306 


资讯 门户 类 ”腾讯 体育 、 网 易 .腾讯 网 、 知 乎 .新浪 网 百度 知道 SURE ARTE 


购物 消费 旅游 购书、 点 评 、 电 商 


咨询 ,门户 ,知识 ,分 享 .问题 ,导航 、 
分 类 


种 子 词 wi 的 平均 语义 相似 度 W2V_similarity 可 以 作为 
该 查询 词 的 某 类 主题 倾向 性 ,并 采用 负 指 数 权重 进行 
加 权 ( 搜 索引 擎 返回 排 在 前 面 记 录用 户 选择 的 可 能 ; 
较 大 ) ,最 终 计算 出 概率 最 大 的 主题 类 别 即 为 该 查询 项 
所 属 的 主题 类 别 MM. RS, , ,具体 流程 和 计算 公式 分 别 
如 图 3 和 公式 (1) 所 示 : 


MM RS$,, = argmax, , | El" e`. 


W2V. similarity (wr, ,w]) | X) 
3.4 BEARR 

本 研究 将 构建 出 一 个 包含 行为 .时 间 和 主题 特征 
的 三 元 组 表达 , 记 作 < ‘behavior’, ‘ temporality’ , 
"topicality' » 。 已 有 研究 已 经 证 明了 具有 不 同 网 络 搜 
索 能 力 的 用 户 在 点 击 和 搜索 使 用 习惯 的 差异 ,例如 D. 
Tabatabai 等 的 研究 结果 说 明 搜 索 能 力 较 差 的 用 户 更 多 
地 倾向 于 无 耐心 的 试 错 策略 ,这 将 直接 导致 他 们 在 花 
费 足 够 时 间 进行 评估 与 计划 之 前 更 多 地 去 选择 和 点 击 
链接 导航 ”。R. Mihalcea 则 提出 网 络 能 力 的 概念 
( network competence) ”来 描述 和 刻画 用 户 搜寻 行为 
上 的 特点 ,如 ICT 工具 使 用 偏好 性 。 基 于 此 ,本 研究 将 
这 种 网 络 能 力 ( 或 者 行为 上 的 使 用 偏好 ) 记 作 SC, ,并 


Ti 
严 承 希 ， 王 军 ， 王 珂 .中国 大 学 生 的 网 络 使 用 :基于 大 规模 日 志 分 析 的 模式 识别 新 方法 [可 ]. argya E, Y (CREE | 
83 - 93. 
发 生 概率 ,中 ; 表示 起 始 于 时 间 序 列 位 置 i 但 没有 在 位 
F Xx--— EHHRAXXESER 000 置 1 到 i-1 中 出 现 过 的 最 短 的 串 长 长 度 ,Z RI n 分 别 
Dm ur |) 表示 独立 用 户 访问 的 主题 类 数 和 序列 串 长 ,SE 与 AE 
| Query 1 | | Record 1 | 的 计算 方法 见 公式 (3 ) 与 公式 (4)。 需要 说 明 的 是 本 
! Query 2]; i Reowd2 üO | 研究 采用 24 小 时 区 间 与 单位 小 时 内 15 分 钟 时 间 间 隔 
| Query KJ: i [Record k | 作为 时 间 序 列 串 分 割 的 标准 ,例如 00: 00 — 00: 15 分 记 
一 | "3 ne FEX, "3E 为 时 刻 1,00: 15 00:30 分 记 为 时 刻 2, 以 此 类 推 可 以 
一 = 六 | 得 到 96 个 时 刻 间隔 。 
| SE = - X^, P(xj) :log(P(x,)) 式 (3) 
Pid / | 
T G ES | AE= (一 ， Eig)” * In(n) X) 


3 MaxMatching 算法 流程 
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C Mer fili (shannon entropy, SE) 本 质 上 用 来 刻画 随 
机 葛 量 的 不 确定 性 , 即 我 们 对 于 信息 的 内 容 越 不 确定 ， 
则 村 清楚 它 所 需要 的 信息 量 越 大 , 同 理 ,用 户 在 不 同 主 
题 有 中 的 选择 可 能 性 越 相似 , 则 其 信息 炉 值 越 大 ,反映 
出 昨 户 不 存在 明确 的 主题 倾向 ,这 里 我 们 用 以 衡量 主 
题 的 专 一 性 特征 (topicality ) 。 由 于 用 户 访问 网 络 的 时 
间 旦 存在 先后 顺序 的 ,仅仅 使 用 信息 焙 来 度量 用 户 访 
问 站 序列 特征 存在 问题 。A、Barabasi 等 对 此 提出 了 
HH (actual entropy, AE) 这 一 概念 ,有效 地 解决 
了 序列 先后 的 炳 值 预测 问题 。 本 研究 使 用 AE 对 用 户 
访问 行为 时 间 序 列 进行 计算 ,来 判断 用 户 的 访问 有 序 
或 者 规律 程度 。 如 果 AE 大 , 则 说 明 用 户 访问 行为 的 
时 间 特 征 是 无 规律 (无 序 ) 的。 假设 P(x ) 是 主题 x 的 


Feq+W2V Textrank+W2V Tdidf+W2V Query rule 


NETT. 


4.1 MaxMatching 算法 评估 

MaxMatching 算法 目标 是 将 查询 项 转换 为 给 定 的 
主题 ,其 算法 质量 会 严重 影响 后 续 聚 类 建 模 的 准确 性 ， 
并 且 此 方法 是 基于 查询 扩展 策略 所 获取 的 元 数据 文本 
进行 计算 的 ,因而 参数 设置 会 对 MaxMatching 产生 直 
接 影响 。 因 此 本 研究 将 考虑 两 个 重要 的 参数 : e 
返回 的 记录 数目 (NTP) ,这 里 选取 的 范围 为 [1， 
@) 元 数据 的 关键 词 抽取 算法 (SKE ) 
的 是 三 种 常见 的 文本 特征 抽取 方式 , 即 词 频 (frequen- 
cy) TD -IDF 和 TextRank” 。 另 外 本 研究 随机 选择 
2 000 个 查询 项 (query) ,并 分 派 给 7 位 标 引 员 进行 人 工 
标 引 (人 工 标 引 的 最 大 概率 类 别 即 为 查询 项 所 属 主题 
类 别 ) ,同时 为 了 展现 MaxMatching 算法 的 优势 ,本 研 
究 将 一 种 基于 规则 匹配 的 算法 ”作为 基准 Baseline 以 
方便 对 比 。 图 4 说 明基 于 “TDIDF + W2V" fj Max- 
Matching 算法 是 最 优 的 ,其 准确 率 可 以 达到 84.769% , 
此 时 最 优 参数 NTPbest =3。 由 此 可 见 , 相 比 于 传统 的 
规则 匹配 方法 “query rule" , 结合 Word2Vec 深度 学 习 
的 查询 项 扩展 算法 MaxMatching 在 识别 用 户 搜 索 意 
和 主题 偏好 的 任务 上 更 高 效 和 准确 。 


Num of Top Page 


图 4 MaxMatching 算法 质量 评估 


4.2 最 优 聚 类 模型 
本 研究 采用 两 种 经 典 的 聚 类 模型 (人 -means & DB- 


scan) 进行 用 户 的 特征 聚 类 ,并 根据 轮廓 系数 (silhouette 
coefficient ,SC) 5 进行 聚 类 模型 的 质量 评价 ,如 图 5 所 
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示 。 我 们 对 DBscan 的 参数 (扫描 半径 Eps 以 及 最 小 邻 
居 数 目 Msn) 以 及 K-means 的 用 户 聚 类 数目 进行 讨论 与 


Optimal Model 


A == Kmeans 
03| tv — DBscan 


Silhouette Coefficient(SC) 
Silhouette Coefficient(SC) 


10 20 30 40 50 60 


Num of Clusters 


15 聚 类 结果 分 析 
盖 -通过 聚 类 模型 我 们 可 以 得 到 三 类 不 同 用户 群 体 
( ter0 , clusterl ,cluster2) 。 从 样本 总 体 来 说 , 绝 大 部 
符 有 入 学 生 用 户 使 用 搜索 引擎 频次 不 高 (73. 21% 的 
SC 如 低 于 均值 0. 15, 见 图 6) , 近 一 半 (50.79% ) 的 用 
本 没 使 用 过 搜索 引擎 。 从 聚 类 质心 和 均值 统计 来 
AIL EI 6) , cluster E. £& £z Es I] e GE A [EL (SE 和 
AE B SC, 值 取 值 范围 几乎 均匀 涵盖 [0,1] 区 间 ; 
ctrl 的 SE 值 最 低 而 AE 值 最 高 , 且 SC, Ab T EH 
水 到 范围 (959% 的 用 户 SC 在 [0,0.3] 范 围 内 ) ;clus- 
teg AE 值 最 低 , SE 值 处 于 平均 水 平 ( SE, = 
0. 18) , 且 SC 处 于 类 似 较 低 水 平 范围 (95% 的 用 户 
scs #[o, 0.2] 范 围 内) 。 为 了 进一步 确定 上 述 结果 
m un 
U 前 非 参 数 秩 和 检验 ( 由 于 数据 方差 不 齐 ) , 表 2 表明 
尽管 clusterl 和 cluster0 在 AE 的 质心 均值 上 基本 相 
A&& [ELA [8] PT EE PIS E19] FH JP AERE AE ( SE 和 AE ) 之 间 整 
体 上 是 存在 显著 差异 的 。 
表 2 Mann-Whitney U 检测 


Statistical Indicator 1Mean +Std Mann-Whitney U P-value 
Pair | Variable SE 

(clusterl , cluste10 ) 0.330 +0. 253 8 068.5 0 

(cluste10, clustei2 ) 1.198 +0. 279 229 625 0 

(elustei2 , clusterl ) 0.721 20.466 641 684 0 
Pair | Variable AE 

( elusterl ，cluster0 ) 2.485 +0. 294 1 380 296. 5 0 

(cluster0 , cluster2 ) 2.339 +0. 323 927 116.5 0 

(clustei2, clusterl ) 1.371 x0. 401 790 129.5 0 


HE: "I1 Mean +std "为 第 一 个 划 线 的 聚 类 统计 指标 
为 了 更 清楚 地 展示 和 人 解释 特征 炉 在 用 户 访 问 行 > 
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测试 ,发 现 K-means 算法 总 体 上 优 于 DBscan ,并 且 当 聚 
类 数目 =3 时 ,K-means 的 SC 值 最 高 ,此 时 聚 类 效果 最 佳 。 


Dbscan Model 
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SC, 


6 聚 类 特征 分 析 


的 时 序 性 (temporality ) 和 主题 性 (topicality) 上 的 特点 ， 
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我 们 将 这 三 类 用 户 投影 到 时 钟 形 式 和 主题 分 布 进行 可 
视 化 分 析 , 如 图 7 所 示 。 从 主题 性 指标 SE 和 时 序 性 指 
标 AE 的 分 布 来 看 ,三 类 大 学 生 用 户 群 体 存 在 明显 的 
2S DC AT 6 Bt , X tE W T PEE P DC AT CR Ru HC 
次 ,具有 最 小 AE 值 的 cluster2 用 户 上 网 最 有 规律 ,他 
们 会 选择 13:15 -13:30, 17:15 -18:00, 19:15 - 19: 
30 和 21:45 - 22:00 的 时 间 段 进行 上 网 (绿色 部 分 ) , 
然而 其 他 两 类 用 户 的 在 线 活跃 时 间 显 著 长 于 cluster2 , 
基本 覆盖 了 1/3 的 整 天 时 间 (12:00 -2:30 和 16:00 - 
22:30) ,因此 这 两 类 用 户 的 网 络 访问 呈现 无 序 性 , 即 难 


以 预测 较为 精确 的 网 络 所 使 用 时 刻 ,但 是 值得 注意 的 
是 clusterl 群体 的 平均 访问 强度 (时 有 段 均 访问 次 数 为 
65.3) 是 明显 高 于 cluster? (时段 均 访 问 次 数 为 38.3 ) 与 
clusterO (时 段 均 访 问 次 数 为 28.2) 。 在 主题 偏好 分 布 
方面 ,clusterl 具有 最 小 SE 值 表现 出 明显 的 主题 专 一 
性 ,这 类 用 户 对 视频 直播 类 (“Live video" ) 使 用 和 偏好 
显著 高 于 其 他 类 别 (红色 部 分 ) , 相 比 之 下 虽然 其 他 两 类 
用 户 的 视频 直播 类 使 用 量 更 高 ,但 与 其 他 主题 类 别 的 差 
异性 上 ,这 两 类 用 户 并 不 如 cluster! 显著 ,特别 是 cluster0 
似乎 并 没有 对 某 一 类 主题 存在 明显 的 偏好 倾向 。 


Dual dimensions 


: 
> i 
T [55] 
LO 1 
er 
e 
o 0.5 
mN um 0.5 
e 0:00 2000 
tS 2 
CN 
je, 
N 
2 
>< 
© 
= 
die 
© 


1.0 1.5 
Shannon Entropy (SE) 


2.0 


G dusterl centroid 
C] dusterÜ centroid 
EUN duster2 centroid 


Topicality 
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基于 上 述 特征 三 元 组 的 分 析 结 果 ,我 们 归纳 出 日 
常 网 络 生活 中 三 类 大 学 生 用 户 群 体 细 分 模式 , 即 综合 
使 用 型 用 户 (conjoint -utilizing users,CU)、 单 一 使 用 无 
序 型 用 户 (single-utilizing users in disorder, SUD ) 和 单一 


使 用 有 序 型 用 户 (single -utilizing users in orderness, 
SUO) ,分 别 对 应 cluster0 ,clusterl , cluster2 ,其 具体 的 群 


体 特征 如 表 3 所 示 : 


RI 大学生 群体 细 分 特征 


大 学 生 用 户 群 网 络 使 用 能 力 (behavior) 访问 时 序 性 (temporality ) 主题 倾向 性 (topicality ) 
CU 综合 使 用 URL 链接 点 击 与 搜索 进行 信息 获 ”访问 呈现 较 强 的 无 序 性 ,在 线 活 跃 时 间 持 续 呈现 多 样 性 主题 偏好 ,无 明显 主题 倾向 性 
取 , 网 络 使 用 能 力 较 强 性 长 ,活跃 强度 较 长 
SUD 以 点 击 行为 为 主 , 较 少 使 用 搜索 工具 ,网 络 ”访问 呈现 较 强 的 无 序 性 ,在 线 活跃 时 间 持 续 。 对 视频 类 内 容 有 强烈 的 单一 性 倾向 
使 用 能 力 较 弱 性 长 ,活跃 强度 较 弱 
SUO 以 点 击 行为 为 主 , 较 少 使 用 搜索 工具 ,网 络 ”访问 非常 有 序 和 规律 ,在 线 活 跃 时 间 持 续 性 ”呈现 多 样 性 主题 偏好 ,对 视频 类 内 容 有 一 定 
使 用 能 力 较 弱 非常 短 ,活跃 强度 较 弱 较 弱 的 主题 倾向 性 
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5 讨论 与 总 结 


本 研究 从 行为 维度 ( 网络 能 力 ) .时 间 维 度 ( 时 序 
性 ) 以 及 主题 维度 ( 主题 专 一 性 ) 三 个 层面 使 用 中 国 大 
学 生 用 户 大 规模 上 网 行为 日 志 数据 构建 出 一 套用 户 在 
线 行为 模式 识别 的 新 方法 。 该 方法 的 核心 包括 基于 深 
度 学 习 和 查询 扩展 策略 的 “MaxMatching” 匹配 算法 和 
不 同 维度 的 特征 炉 测 度 算法 。 从 算法 评测 结果 来 看 ， 
相 比 于 传统 的 规则 匹配 方法 ,该 算法 在 识别 查询 项 的 
用 户 意图 方面 表现 优异 ,这 对 于 有 效 拓展 和 让 富 信息 
仿 索 领域 用 户 意图 理解 任务 具有 一 定理 论 与 实践 价 
值 ,这 是 研究 方法 上 的 贡献 。 

多 维度 的 特征 箭 引信 可 以 从 全 新 的 角度 理解 和 揭 
示 大 学 生 上 网 行为 模式 。 实 证 结果 表明 :中 当 大 学 生 
用 汽 日 常 使 用 综合 型 导航 网 站 时 ,他 们 较 少 地 使 用 网 
靖 内 部 的 搜索 工具 和 组 件 ( 如 搜索 框 ) ,而 更 愿意 使 用 
肆 航 链接 功能 (表现 为 点 击 一 些 热 门 网 站 链接 ) ,这 体 
现 遇 大 学 生 用 户 的 日 常 网 络 生活 并 不 紧密 依赖 于 搜索 
[ 卫 。 造 成 这 一 “奇怪 "现象 的 原因 可 能 在 于 大 学 生 
用 户 使 用 导航 网 站 的 意图 一 般 比 较 简单 且 目 标明 确 ， 
全 中 用 户 看望 查询 机 票 和 旅游 信息 时 ,第 一 时 间 会 考 
虑 撕 程 和 去 哪儿 ,而 当 他 们 购买 衣装 服饰 时 ,很 容易 就 
丛 神 到 淘宝 和 京东 ,他 们 只 需要 点 击 导航 网 站 的 链接 
就 二 以 快速 地 访问 受 欢迎 的 第 三 方 平台 ,并 寻找 自己 


研究 提供 借鉴 和 参考 。 

对 于 广大 面向 大 学 生 用 户 的 服务 商 ( 特别 是 大 部 
分 中 小 型 企业 ) 而 言 ,用 户 市 场 细 分 与 用 户 行为 模式 挖 
掘 能 够 有 效 地 帮助 企业 了 解 用 户 群 体 需求 ,以 支持 更 
为 个 性 化 的 信息 推荐 服务 ,乃至 拓展 潜在 的 用 户 群体 
和 新 的 服务 模式 ,实现 企业 数据 增值 。 本 研究 正 是 引 
入 了 一 种 基于 企业 访问 日 志 进 行 用 户 市 场 细 分 的 方 
法 ,该 方法 在 数据 层面 和 模型 应 用 层面 都 较为 容易 。 
另外 针对 这 三 类 用 户 群 体 ,企业 可 以 制定 出 符合 不 同 
群体 的 个 性 化 信息 推送 策略 。 比 如 通过 此 方法 可 以 对 
识别 出 的 单一 使 用 无 序 型 用 户 进行 长 时 间 的 单一 类 型 
信息 内 容 推 送 ,信息 内 容 只 涵盖 “视频 直播 类 ”资源 即 
可 ;但 对 于 单一 使 用 有 序 型 用 户 ,企业 应 该 采用 定时 混 
合 推荐 的 策略 , 即 在 固定 的 时 钟 内 (如 本 研究 的 4 个 短 
时 段 ) 进 行 泛 化 主题 的 信息 内 容 推 送 , 内 容 范 围 可 以 涵 
352] LES ,游戏 动漫 类 ,文艺 娱乐 类 和 视频 直播 类 
资源 。 一 方面 这 种 策略 有 利于 较为 精确 地 把 握 用 户 群 
体 的 定向 需求 ,并 作为 更 精确 个 性 化 服务 的 中 间 处 理 
环节 ; 男 一 方面 ,这 种 安排 可 以 实现 对 不 同 群 体 的 定时 
定向 自动 化 推送 服务 ,一 定 程 度 上 提高 了 企业 计算 资 
源 利用 率 ,降低 服务 器 不 必要 的 开销 和 人 力 维 护 成 本 。 

然而 本 研究 仍然 存在 一 些 不 足 之 处 :中 实验 数据 
是 以 构建 的 虚拟 导航 平台 为 基础 的 ,并 没有 记录 完整 
日 常用 户 网 络 使 用 的 全 部 情况 ,例如 用 户 可 能 不 使 用 


需要 的 信息 资源 以 满足 自己 的 信息 需求 ,逻辑 上 一 般 
不 穴 使 用 更 复杂 的 搜索 策略 ,这 符合 “省 力 原则 ”的 解 
释 要 。@ 从 研究 结果 来 看 ,本 研究 基于 大 规模 数据 集 
实 哆 将 中 国 在 线 大 学 生 用 户 群 体 细 分 为 三 类 群体 , 包 
括 综合 使 用 型 用 户 .单一 使 用 无 序 型 用 户 和 单一 使 用 
有 序 型 用 户 。 尽 管 视频 类 网 站 是 大 学 生 用 户主 要 关注 
的 主题 类 别 ,三 类 群体 仍 具 有 明显 的 特征 差异 一 - 综 
合 使 用 型 用 户 会 充分 使 用 导航 链接 和 搜索 查询 工具 进 
行 信息 访问 与 内 容 获取 ,体现 出 较 强 的 网 络 使 用 能 

同时 在 访问 时 序 性 上 具有 较 长 的 活跃 期 和 较 高 的 活路 
强度 ,但 对 主题 内 容 层面 没有 显著 的 专 一 性 ;单一 使 用 
无 序 型 用 户 则 以 点 击 热门 类 网 站 行为 为 主 ,具有 较 长 
在 线 网 络 活跃 时 间 和 较 弱 的 活跃 强度 , 且 对 视频 类 信 


该 导航 网 站 而 直接 使 用 搜索 引擎 进行 信息 查询 和 使 用 
等 ,而 这 类 日 志 数 据 我 们 是 无 法 获取 的 。 因 此 ,尽管 我 
们 采用 绑 定 导 航 在 网 关 入 口 和 降低 资费 政策 等 方式 尽 
可 能 地 增加 用 户 对 平台 使 用 效率 ,以 更 好 地 获得 更 完 
整 的 日 志 数 据 , 所 得 到 的 结果 是 否 一 定 完全 无 偏 地 反 
映 用 户 搜索 工具 较 低 的 使 用 效率 等 结论 仍 有 待 商检 和 
进一步 确认 ,特别 是 有 关 产 生 该 现象 的 原因 如 “省 力 原 
则 ”等 社会 心理 因素 也 需要 进一步 通过 问卷 调研 和 深 
度 访谈 予以 分 析 和 判断 。 书 虽然 相关 大 学 生 访 问 数据 
集 比较 少 , 但 本 研究 使 用 的 数据 集 以 及 数据 维度 仍然 
需要 进一步 拓展 ,以 更 有 力 地 论证 本 研究 提出 的 这 种 
方法 的 有 效 性 和 泛 化 性 。 我 们 将 在 未 来 工作 中 继续 优 
化 导航 网 站 设计 ,增加 宣传 和 投放 范围 ,以 吸引 更 多 的 


息 具 有 专 一 性 偏好 ;单一 使 用 有 序 型 用 户 也 是 以 点 击 
链接 为 主 ,但 在 网 络 使 用 时 间 上 非常 规律 ,其 活跃 时 间 
的 长 度 与 强度 都 比较 低 , 同 时 他 们 对 主题 内 容 也 无 明 
显 偏好 。 总 之 ,这 些 结论 将 有 助 于 帮助 我 们 更 好 地 理 
解 大 学 生 这 类 特殊 群体 的 网 络 使 用 行为 的 模式 与 特 
征 , 从 而 为 针对 该 特定 群体 的 用 户 行为 所 展开 的 相关 
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大 学 生 用 户 流量 。(@B)“ MaxMatching” 算 法 依赖 于 种 子 
词 集 合 的 人 工 标 注 质 量 且 该 算法 属于 硬性 聚 类 模型 ， 
其 模型 准确 率 仍 需 进一步 提高 。 下 一 步 我 们 将 考虑 软 
学 习 方 式 , 通 过 加 入 约束 条 件 和 实体 识别 算法 对 查询 
项 进行 更 为 精确 的 识别 ,同时 使 用 不 同 的 人 工 标注 水 
平和 数量 的 种 子 集 进 行 多 次 重复 试验 ,以 实现 更 好 的 


hinaxiye (ERR 
严 承 希 ,， 王 军 ， 王 珂 . 中 国 大 学 生 的 网 络 使 用 :基于 大 规模 日 志 分 析 的 模式 识别 新 方法 []]. Bst f 2019 ,63 (14) : 


823.—93, 


模型 结果 。 最 后 ,本 研究 的 实验 对 象 主要 是 采用 PC 机 

进行 相关 测试 实验 ,没有 考虑 移动 端的 使 用 情况 ,未 来 

的 工作 将 会 考虑 不 同 设备 途径 (如 手机 端 平 板 电 脑 ) 

并 结合 相应 的 人 口 统计 特征 对 上 述 用 户 群 进行 更 精细 

化 的 特征 分 析 和 统计 描述 ,以 更 全 面 和 深入 地 挖 气 和 

展示 大 学 生 用 户 在 线 行为 的 模式 特点 和 规律 。 
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patterns, which not only makes progress in the domain of user behavior analyse and information retrieval theoretically, but 
also has potential social values and practical significance in promoting personalized service and information recommenda- 
tion for the undergraduate -oriented enterprises. | Method/process | In this paper, a new method for college students’ be- 
havior Web pattern recognition based on large-scale log analysis was proposed. It included a semi supervised learning algo- 
rithm “ MaxMatching" based on deep learning and text analysis, and a hybrid model combined with two characteristic entropy 
(Shannon Entropy and Real Entropy). | Result/conclusion | The empirical results showed that this method has the excel- 
lent performance in the algorithm and the result interpretation. Also, it can generalize and present all-round Chinese college 
students? Web behavior pattern in three aspects of network ability, temporality and topicality. The method and conclusion 
can effectively expand the methods about semantic understanding of queries in information retrieval, and provide some refer- 
ence and feasible suggestions to undergraduate-oriented enterprises on personalized recommendation service. 


Keywords. Chinese students online behavior pattern recognition massive log analysis 
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